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基于 多 种 群 的 随机 扰动 蚁 群 算法 求解 分 布 式 约束 优化 问题 
石 美 凤 '， 肖 诗 川 ， 汉 欣 


重庆 理工 大 学 计算 机 科学 与 工程 学 院 , 重庆 400054) 


一 、 


摘 要 : 针对 现 有 的 基于 蚁 群 优化 思想 求解 分 布 式 约束 优化 问题 的 算法 收敛 较 慢 ， 且 容易 陷入 局 部 最 优等 问题 ， 提 
出 了 一 种 基于 多 种 群 的 随机 扰动 蚁 群 算法 (Random disturbance based multi-population ant colony algorithm to solve 
distributed constraint optimization problems，RDMAD) 来 求解 分 布 式 约束 优化 问题 。 首 先 ，RDMAD 提出 了 一 种 分 工 
合作 机 制 ， 将 种 群 按 比例 划分 为 采用 贪 林 搜索 的 子 种 群 和 采用 启发 式 搜索 的 子 种 群 ， 同 时 构建 分 级 更 新 策略 ， 提 高 
算法 收敛 速度 和 求解 质量 ; 然后 ， 对 采用 贪 禁 搜 索 的 子 种 群 设计 自 适 应 变异 算 子 和 奖惩 机 制 ， 防 止 算法 陷入 局 部 最 
优 ; 最 后 在 算法 陷入 停滞 时 触发 随机 扰动 策略 ， 增 加 种 群 多 样 性 。 将 RDMAD 与 7 种 最 先进 的 非 完备 算法 在 三 类 基 
准 问题 上 的 寻 优 结果 进行 了 实验 对 比 ， 实 验 结果 表明 RDMAD 在 求解 质量 和 收敛 速度 上 优势 明显 ， 且 稳定 性 较 高 。 
关键 词 : 分 布 式 约束 优化 问题 ; 蚁 群 算法 ; 自 适 应 变异 算 子 ; 非 完 备 算法 
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Random disturbance based multi-population ant colony algorithm to 
solve distributed constraint optimization problems 


Shi Meifeng', Xiao Shichuan, Feng Xin 
(College of Computer Science & Engineering, Chongqing University of Technology, Chongqing 400054, China) 


Abstract: Ant-based algorithm to solve distributed constraint optimization problems (ACO DCOP) is an excellent 
population-based algorithm for solving DCOPs. However, ACO DCOP has some shortcomings including very slow 
convergence speed and easily falling into local optima. To cope with these issues, this paper proposes a random disturbance 
based multi-population ant colony algorithm to solve DCOP (RDMAD) . The method introduces a division of labor and 
cooperation mechanism to divide the population into two subpopulations for greedy search and heuristic search respectively. 
The method also constructs a hierarchical update strategy to speed up convergence and improve solution quality. Furthermore, 
this paper designs an adaptive mutation operator and a reward and punishment mechanism for the greedy search subpopulation 
to prevent RDMAD falling into the local optima. Simultaneously, this paper introduces a random disturbance strategy to 
increase the population diversity when RDMAD is stagnant. To verify the performance of the proposed algorithm, RDMAD 
is compared with the other seven advanced incomplete algorithms on three types of benchmark problems. The extensive 
experimental results show that the proposed algorithm is significantly superior to the state-of-the-arts algorithms in solution 
quality and convergence speed. In addition, RAMAD is far stable than the competing algorithms. 

Key words: distributed constraint optimization problems; ant colony algorithm; adaptive mutation operator; incomplete algorithm 


0 引言 能 找到 最 优 解 ， 但 在 通信 和 计算 方面 有 更 好 的 性 能 。 其 中 ， 
二 基于 局 部 搜索 的 非 完 备 算法 是 目前 的 研究 热点 ， 其 中 包括 
多 智能 体系 统 (multi-agent system, MAS) 中 是 分 布 式 人 工 “DSABI 和 GDBAU3 等 。 此 外 ，ALSU4、PDS05 和 LSGA09 等 
智能 领域 重要 的 一 部 分 。 分 布 式 约束 优化 问题 (distributed ”框架 被 用 来 提高 基于 局 部 搜索 的 算法 的 求解 质量 。Max- 
constraint optimization problems, DCOP) 中 是 MAS 基本 框架 之 Sumt71 和 Max-Sum ADVPU8 等 是 基于 推理 的 非 完备 算法 ,其 
一 , 被 广泛 地 应 用 于 许多 实际 问题 建 模 , 如 传感器 网 络 B、 任 中 agent 通过 因子 图 传播 和 积累 效用 。 基 于 采样 的 非 完备 算 
务 调度 外 等 。 法 (如 DUCT05) 则 通过 对 搜索 空间 进行 采样 来 求解 DCOP。 
在 过 去 的 二 十 年 里 ， 许 多 算法 被 提出 用 来 求解 DCOP 。 近来 ， 出 现 了 一 类 利用 种 群 求 解 DCOP 的 非 完 备 算法 。 
其 中 完备 算法 可 得 到 问题 的 最 优 解 。SyncBBO、AFBI9、 Mahmud 等 RI 提出 了 一 种 利用 进化 优化 思想 求解 DCOP 的 
ADOPTII、BnB-ADOPTI 等 是 典型 的 基于 搜索 的 完备 算法 。 ”算法 。Chen 等 2 提出 了 利用 蚁 群 优化 思想 求解 DCOP 的 算 
DPOPII 作 为 典型 的 基于 推理 的 完备 算法 , 其 利用 动态 规划 思 ”法 (ACO_DCOP), ACO_DCOP 是 目前 唯一 利用 蚂 思想 
想 求解 DCOP， 但 DPOP 在 求解 过 程 中 会 遭受 指数 级 的 内 存 ”求解 DCOP 的 算法 ， 其 从 传统 蚁 群 算法 演变 而 来 ， 然 而 
消耗 。 MB-DPOP090 算 法 被 提出 用 于 降低 DPOP 算法 内 存 消 。” ACO_DCOP 算法 中 仅 利 用 单 种 群 寻 优 ,同时 受信 息 素 影响 ， 
耗 ,为 提高 MB-DPOP 算法 性 能 , Chen 等 [1 提出 RMB-DPOP ”收敛 较 慢 ,容易 陷入 局 部 最 优 ,目前 多 种 群 策 略 被 广泛 使 用 ， 
算法 减少 MB-DPOP 算法 中 的 元 余 推理 ， 提 高 了 算法 的 可 扩 ” 薛 宏 全 等 23 通过 分 析 蚂 蚁 分 工 ， 利 用 核心 蚁 群 和 搜索 蚁 群 的 
展 性 。Rashik 等 0 利用 交叉 边 一 致 性 缩短 了 DPOP 的 运行 时 配合 有 效 的 解决 了 车 间 调 度 问 题 。 朱 佑 滔 等 23] 提 出 了 一 种 多 
闻 。 由 于 DCOP 是 NP-Hard， 相 比 之 下 ， 非 完备 算法 虽然 不 种 群 蚁 群 算法 用 于 求解 机 械 手臂 的 路 径 规划 问题 。 陈 佳 等 2 


| 


浸 
维 
本 
六 


收 稿 日 期 : 2022-03-04; 修 回 日 期 : 2022-05-03 基金 项 目 : 重庆 市 教育 委员 会 科学 技术 研究 计划 青年 项 目 资助 项 目 (KJQN202001139); 重庆 市 基 
础 研究 与 前 沿 探 索 项 目 (cstc2018jcyjAX0287); 重庆 理工 大 学 研究 生 创 新 项 目 (clgycx20203116); 重庆 理工 大 学 科研 启动 基金 资助 项 目 (2019ZD03) 

作者 简介 : 石 美 风 (1989-)， 女 (通信 作者 )， 讲师， 硕 导 ,博士 , 主要 研究 方向 为 计算 智能 、 分 布 式 人 工 智 能 (shimfl@2cqut.edu.cn); 肖 诗 川 (1996-)， 女 ， 
硕士 研究 生 ， 主 要 研究 方向 为 计算 智能 、 分 布 式 人 工 智 能 ; 冯 欣 (1982-)， 女 ， 副 教授 ， 硕 导 ， 博 士 ， 主 要 研究 方向 为 计算 机 视觉 


202205.00050v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


录用 定稿 石 美 风 ， 等 : 基于 多 种 群 的 随机 扰动 蚁 群 算法 求解 分 布 式 约束 优化 问题 第 39 卷 第 9 期 


采用 主 从 蚁 群 的 多 种 群 机 制 有 效 求解 旅行 商 问题 。 因 此 针对 低 优先 级 的 agent。 同时 根据 agent 的 取 值 不 同 , 每 两 个 agent 
ACO_DCOP 收敛 较 慢 , 且 易 陷入 局 部 最 优等 问题 , 本 文 提出 。 之 间 有 多 条 信息 素 路 径 。 如 图 2(c) 信 息 素 路 径 构 造 图 ， 当 a 


种 基于 多 种 群 的 随机 扰动 蚁 群 算法 求解 分 布 式 约束 优化 问 ” 取 值 为 a，a 取 值 为 4 时 ， 则 该 路 径 上 的 信息 素 浓度 为 
题 (RDMAD)。 本 文 的 主要 贡献 包括 4 个 方面 : ty(di,d)) 。 

a) 提出 了 一 种 分 工 合 作 机 制 , 子 种 群 分 别 通 过 执行 贪 梦 每 次 迭代 中 ， 蚂 蚁 从 优先 级 最 高 的 agent 出 发 ， 在 每 只 
搜索 和 启发 式 搜 索 使 得 局 部 和 全 局 搜索 相互 协调 ， 可 以 更 好 ”蚂蚁 获得 取 值 后 ，agent 将 蚂蚁 取 值 发 送 给 其 低 优先 级 邻居 。 
地 探索 解 空 间 和 开发 优秀 解 。 当 接 收 到 高 优先 级 邻居 的 蚂蚁 取 值 后 ， agent a; 首先 为 每 只 

b) 提出 了 一 种 随机 扰动 策略 ,在 算法 陷入 停滞 时 ， 触 发 蚂蚁 合并 收 到 的 解 集合 ， 当 a 收 到 其 所 有 高 优先 级 邻居 的 蚂 


随机 扰动 策略 ， 种 群 重新 划分 为 3 个 子 种 群 ， 新 增 采用 随机 ” 蚁 取 值 后 ,采用 转移 概率 为 每 只 蚂蚁 选取 变量 值 域 中 的 取 值 ， 


选 值 的 子 种 群 ,增加 种 群 多 样 性 ,有 助 于 算法 跳出 局 部 最 优 。 否则 等 待 其 高 优先 级 邻居 的 取 值 。 a 完成 为 每 只 蚂蚁 取 值 后 
c) 设计 了 一 种 分 级 更 新 策略 , 执行 不 同 任务 的 子 种 群 采 将 蚂蚁 取 值 发 送 给 自己 的 低 或 最 低 优先 级 邻居 。 当 最 低 优 先 
用 不 同 更 新 方式 ， 提 高 了 算法 的 收敛 速度 和 求解 质量 。 级 agent 收 到 所 有 蚂蚁 取 值 后 ， 此 时 每 只 蚂蚁 已 经 完成 解 的 
d) 对 RDMAD 算法 的 复杂 性 进行 了 理论 分 析 ， 并 通过 构建 ， 计 算 每 只 蚂蚁 构建 的 解 的 代价 ， 代 价 越 小 解 的 质量 越 
实验 结果 表明 RDMAD 算法 在 求解 质量 和 收敛 性 能 上 优势 明显 。 好 ， 根 据 代价 更 新 全 局 最 优 解 并 且 计 算 每 只 蚂蚁 的 信息 素 增 
1 ”者 时 量 ， 然 后 将 信息 素 增 量 发 送 给 所 有 agent。agent 收 到 信息 素 
站 增 量 信 息 后 ， 更 新 和 蒸发 与 其 高 优先 级 邻居 间 的 信息 素 路 径 
1.1 分 布 式 约束 优化 问题 上 的 浓度 ， 到 此 一 次 迭代 结束 。 
DCOP 可 定义 为 一 个 四 元 组 (X,D,F,4) PRI， 其 中 4 是 
agent 的 集合 {4,0,…,a,} ; X 是 离散 变量 的 集合 Cap] ， 
一 个 agent 控制 一 个 或 多 个 变量 ，m>n; D 是 离散 变量 蛙 4 信 域 到 I pe I ~ 
的 集合 [P,PD,…,D,} ， 其 中 Di 是 变量 的 值 域 ，F 是 约束 关 ， 2 人 
系 函 数 的 集合 {有 ,2…,1s} ,其 中 feF 是 子 集 w*cX 的 函数 ,该 (a) BFS 伪 树 ”(b) 消息 传递 顺序 ”(c) 构造 图 
函数 定义 了 二 中 变量 间 的 约束 关系 。 图 2 ”信息 素 路 径 构建 
DCOP 求解 算法 的 目标 为 寻找 一 组 赋值 组 合 xX* 使 式 (1) Fig.2 Pheromone path construction 
所 示 全 局 约束 代价 最 小 。 


2 RDMAD 算法 


X=argminD, fC) (1) 0 

本 文 提出 了 一 种 基于 多 种 群 的 随机 扰动 蚁 群 算法 用 于 求 

本 文中 一 个 agent 控制 一 个 变量 ， 因 此 这 里 “agent” 和  ” 解 DCOP， 其 主要 采用 分 工 合作 机 制 、 分 级 更 新 和 随机 扰动 

“变量 ”可 互 换 。 图 1(a) 为 DCOP 的 约束 图 ， 其 中 一 个 节点 策略 。 该 算法 利用 子 种 群 在 寻 优 过 程 中 的 不 同 指导 作用 ， 
表示 一 个 agent， 两 个 agent 之 间 的 边 表示 它们 之 间 存 在 约束 ” 效 地 提高 了 算法 收敛 和 求解 性 能 。 


区 


关系 ， 图 1(b) 为 DCOP 的 约束 矩阵 ， 其 中 0、1 为 变量 的 取 ”2.1 初始 化 阶段 
值 ， 和 矩阵 中 其 余 值 为 当 有 约束 的 两 个 变量 取 值 时 对 应 的 代价 RDMAD 算法 利用 蚂蚁 在 agent 之 间 的 运动 来 构造 解 。 
大 小 。 例 如 ， 当 区 =0， 交 =0 时 ， 对 应 代价 值 为 $。 首先 RDMAD 算法 将 agent 之 间 的 约束 图 转换 为 广度 优先 搜 
人 N01 Neo 1 索 的 伪 树 结构 , 然后 根据 伪 树 结构 构建 agent 消息 传递 顺序 ， 
Os 0 a1 生成 最 终 构 造 图 , 如 1.2 节 图 2 所 示 过 程 。- RDMAD 算法 中 ， 
1 |2|8| 1 |5|4 信息 素 信息 由 低 优先 级 agent 保存 。 在 完成 构造 图 构建 后 ， 
六 aloll Naloll 初始 化 参数 ， 并 且 每 个 agent 初始 化 蚂蚁 解 集 为 空 。 然 后 优 
pe ™ 、 Ta a 先 级 最 高 agent 为 每 只 蚂蚁 随机 取 值 ， 再 将 取 值 信息 发 送 给 
1 1315][1 1214 自己 的 低 优先 级 邻居 。 以 1.2 节 图 2 为 例 ，x 为 优先 级 最 高 
(a) 约束 图 (b) 约束 矩阵 节点 , 假设 种 群 规 模 为 2，* 为 蚂蚁 1 取 值 为 1， 为 蚂蚁 2 取 
图 1 DCOP 实例 值 为 0， 则 将 三 的 这 和 蚂蚁 取 值 40} 发 送 给 石 的 低 优先 级 邻 
Fig.1 ADCOPinstance 居 吉 ,加 各。 

1.2 ACO DCOP 2.2 ”分工 合作 机 制 | 
蚁 群 优化 算法 (Ant Colony Optimization, ACO) 是 一 种 基 基于 种 群 求解 DCOP 的 策略 近 几 年 才 出 现 ， 这 类 算法 都 
于 种 群 的 求解 组 合 优化 问题 的 元 用 发 式 算法 ， 已 成 功 应 用 于 ”是 直接 从 传统 群体 智能 算法 中 演变 而 来 ， 仅 利用 了 单 种 群 来 
旅行 商 问 题 、 约 束 满足 问题 等 。 由 于 DCOP 中 没有 实际 的 路 。 寻 优 。 本 文 在 现 有 采用 蚂蚁 转移 概率 取 值 的 种 群 上 增加 了 采用 


径 可 用 , 因此 传统 的 ACO 无 法 直接 用 于 求解 DCOP。 目前 仅 。 贪 焚 搜索 的 子 种 群 ， 利 用 多 种 群 合 作 更 好 地 平衡 开发 和 探索 。 
有 ACO_DCOP 成 功 将 蚁 群 优化 思想 应 用 于 求解 DCOP。 当 agent a; 接收 到 来 自 其 高 优先 级 邻居 的 取 值 时 , 首先 合 
ACO_DCOP 利用 agent 之 间 的 消息 传递 机 制 来 模拟 蚂蚁 ”并 所 有 取 值 ， 当 a 接收 到 所 有 高 优先 级 邻居 的 取 值 时 ，ai 开 


的 运动 ， 首 次 将 群体 智能 应 用 于 求解 DCOP。 以 图 1 为 例 得 始 为 蚂蚁 选 值 ， 每 个 子 种 群 的 选 值 策略 如 下 : 
到 图 2(c) 所 示 信 息 素 路 径 构造 图 ， 其 中 节点 表示 agent。 首 1) 子 种 群 1 
先 将 图 1(a) 中 的 约束 图 转 为 广度 优先 搜索 伪 树 P4， 如 图 2(a) agent a 采用 贪 焚 搜索 为 子 种 群 1 中 的 蚂蚁 取 值 ， 该 方式 


所 示 。 然后 构建 的 agent 之 间 的 消息 传递 顺序 ( 蚂 蚊 爬行 方向 )， ”增强 了 蚂蚁 对 局 部 的 探索 ， 有 利于 提高 算法 收敛 速度 。 a 采 
如 图 2(b) 所 示 ， 其 中 上 层 agent 的 优先 级 高 于 下 层 agent,， 同 用 式 (2) 为 蚂蚁 上 选取 使 4 与 其 邻居 间 约 束 代价 和 最 小 时 的 取 
层 间 的 agent 邻居 个 数 越 多 ， 值 域 越 大 优先 级 越 高 ， 若 两 个 ” 值 4。 

司 层 的 agent 具有 相同 的 邻居 数 和 值 域 大 小 , 则 agent 的 命名 d =argmin( cost, (dV )) + est,(d,)) 0) 
id 越 小， 优先 级 越 高 。 因此 agent a 的 邻居 可 分 为 高 优先 级 和 

邻居 tt 和 低 优先 级 邻居 ， 且 消息 从 高 优先 级 的 agent 传 向 其 中 ， PD; 是 值 域 ，Vj 是 a 的 高 优先 级 邻居 % 对 蚂蚁 的 取 


202205.00050v1 


chinaXiv 


录用 定稿 


值 ，cosw(di,V) 是 a 为 蚂蚁 取 值 为 41，4a 为 昌 蚁 大 取 值 为 
Vj 时 的 约束 代价 ， 式 (3) 定 义 了 4 与 其 低 优先 级 邻居 Li 之 间 
的 最 小 约束 代价 和 的 预 估 值 sx) ， 其 初始 化 为 最 优 解 。 


esi(d) = PS mi eosts (dd)) (3) 


为 避免 种 群 因 贪 焚 搜索 快速 陷入 局 部 最 优 ， 本 文 为 子 种 


totalcycle —curcycle 


Re totalcycle 4) 
其 中 ，m 为 权 值 ， 可 调整 变异 算 子 大 小 ，totalcycle 为 总 的 碗 
尺 次 数 ，curcycle 为 当前 迭代 次 数 。 当 ai 为 种 群 1 取 值 完成 


时 ， 采 用 随机 概率 ae[0,1 挑选 蚂蚁 个 体 进行 值 交 换 ， 当 小 于 
时， < 随机 选择 蚂蚁 必 ， 将 当前 蝎 蚁 大 的 取 值 与 蚂蚁 上 的 
取 值 互 换 ， 得 到 新 个 体 。 

2) 子 种 群 2 

子 种 群 2 保留 原 有 的 转移 概率 取 值 方式 ， 其 主要 采用 蚁 
群 优化 思想 中 的 启发 式 搜索 , 这 有 利于 蚂蚁 对 agent a 的 解 空 
间 进 行 全 局 探索 。 该 概率 计算 依赖 于 信息 素 因子 和 启发 式 因 
子 ， 同 时 配合 轮 盘 赌 。% 采用 式 (5) 为 蚂蚁 上 取 值 为 4 的 概率 
如 下 。 


Oi(di)* mi(di)s 


(da) = Td) 
ro © 


其中 ，& 和 6 分 别 为 信息 素 因子 和 启发 式 因子 权重 ,信息 素 


天子 .4) 影响 蚂蚁 对 路 径 的 探索 ， 其 定义 如 式 (6) 所 示 。 
Oi(d)= 2 ry(di,Vi,)) (6) 


中 ，9(4) 为 a 对 蚂蚁 取 值 4; 时 ， a 与 其 所 有 高 优先 级 领 
居 之 间 的 信息 素 浓 度 之 和 。 启 发 式 因 子 mi(4) 影响 了 蚂蚁 对 
解 的 开发 ， a 与 其 邻居 间 的 约束 代价 和 越 大 ， 启 发 式 因 子 越 
小 ， 当 前 解 被 开发 的 可 能 性 越 小 ， 如 式 (7) 所 示 。 

1 
》 cosn(d +en(d)-LC (7) 


并 


Ts (di) = 


其 中 , LC 为 4 与 其 邻居 间 的 最 小 约束 代价 和 , 用 于 评估 值 4 
的 可 开发 程度 ， 如 式 (8) 所 示 。 


Lc-=g(> mincosty(di,d))+eL (di)) -1 (8) 


2.3 ”随机 扰动 策略 
种 群 的 多 样 性 影响 了 算法 对 解 空间 的 搜索 范围 ， 由 于 蚂 
蚁 是 依靠 路 径 上 的 信息 素 浓度 寻 优 的 ,ACO_DCOP 在 和 欠 代 后 
期 ， 种 群 多 样 性 越 来 越 小 ， 因 此 算法 容易 陷入 局 部 最 优 。 本 
文 设计 了 一 种 随机 扰动 策略 来 增加 种 群 多 样 性 。 当 算法 停 消 
次 数 等 于 设 定 的 阔 值 count, 此 时 触发 随机 扰动 策略 。 算法 将 
种 群 重新 划分 成 三 个 子 种 群 ,其 中 子 种 群 1 和 2 的 任务 不 变 ， 
子 种 群 3 的 任务 则 是 扰动 信息 素 积累 ， 按 式 (9) 采 用 完全 随机 
取 值 ， 打 破 原 有 信息 素 累 积 规律 。 
d; = random(D.;) (9) 


2.4 ”分 级 更 新 策略 

根据 每 个 子 种 群 的 引导 作用 不 同 ， 构 建 分 级 更 新 策略 。 
首先 当 最 低 优先 级 agent a; 接收 到 所 有 高 优先 级 邻居 的 取 值 
后 ， 计 算 每 只 蚂蚁 的 信息 素 增 量 A; ， 如 式 (10) 所 示 。 


coS 大 一 Pestcost 


> cost, —bestcost (10) 


Al =1- 


其 中 ， cost 为 蚂蚁 构建 的 完整 值 分 配对 应 的 代价 ，bestcost 


为 全 局 最 优 代价 值 ，K 为 种 群 规模 。 最 低 优先 级 a 将 信息 素 
增 量 A: 、 种 群 解 集 和 最 优 解 发 送 给 其 他 所 有 agent。agent 利 
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群 1 设计 了 一 种 自 适应 调整 的 变异 算 子 mm， 其 定义 如 式 (4) 所 示 。 
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用 信息 素 增 量 A, 更 新 与 其 高 优先 级 邻居 之 间 信 息 素 路 径 浓 
度 。 更 新 策略 如 式 (11) 所 示 。 


Ty (Ve Wij) = Ty (Ve Ve) +Ar, VieH; (11) 
Ce 子 种 群 1 
A =40.8A4,ke 子 种 群 2 (12) 


1.2A,k e 子 种 群 3 


式 (12) 是 各 子 种 群 信息 素 增 量 的 定义 。 由 于 子 种 群 1 对 
种 群 的 探索 方向 具有 引导 作用 ， 因 此 子 种 群 1 的 更 新 方式 按 
式 (13) 所 示 奖 惩 机 制 进行 。 

a A.>0 (13) 
~ [Ai/nm, A.<0 

其 中 ，n 为 子 种群 1 的 规模 。 若 A 为 正 ， 相 应 路 径 将 获得 奖 

励 ， 否 则 将 受到 处 罚 。 该 机 制 可 减 小 路 径 上 信息 素 浓 度 的 差 

异 ， 防 止 算 法 过 快 收敛 。 

分 级 更 新 策略 体现 了 多 种 群 在 寻 优 过 程 中 对 算法 的 不 同 
指导 作用 。 通 过 这 种 模式 , 提高 了 算法 的 收敛 速度 和 寻 优 质量 。 
2.5 信息 素 蒸发 

信息 素 蒸发 阶段 可 使 得 蚂蚁 忘记 之 前 不 好 的 路 径 ，agent 
在 更 新 信息 素 后 , 根据 式 (14) 进 行 信息 素 蒸发 , 其 中 2 为 蒸发 
率 ， 为 初始 化 浓度 ， 信 息 素 范围 为 [ ra ,me ] 。 

tj(di,dj;)=(1—np)ry(di,dj)+ npro (14) 
其 中 ， ，# 控制 了 蒸发 率 的 大 小 ,默认 为 1。 在 触发 随机 扰 
动 策略 时 ，5 =2，n =0.5， 增 强 信息 素 蒸发 ， 有 助 于 算法 跳出 
局 部 最 优 。 
2.6 RDMAD 算法 步骤 
RDMAD 算法 具体 实现 步骤 如 算法 1 所 示 。 
算法 1 RDMAD 算法 (for agent a) 
入 : 初始 化 参数 &,p,p,To,K,count 。 
上 : 使 全 局 约束 代价 最 小 的 一 组 赋值 组 合子 。 
for each deD，do 计算 est(d,) end for 
for each 蚂蚁 kdo 
初始 化 解 集 : 
if a; 是 优先 级 最 高 节点 
for each 蚂蚁 k do 
4 为 蚂蚁 随机 取 值 为 Wi ， 
end for 
8 发 送 蚂 蚁 取 值 信息 YY 和 的 记 给 低 优先 级 邻居 工 
9 end for 
16 When agent a 收 到 了 取 值 信息 (id , recv_V ): 
7 for each 蚂蚁 k do 
8 if w 从 其 高 优先 级 邻居 收 到 了 所 有 取 值 信息 


并 


EE 


下 


堆 
[a 


Ve {VeVuV,. 


Vi Vi UV 


a wm 


Vs WV UVrecv_V end for 


9 for each 蚂蚁 k do 

10 if c==count 

11 a; 根据 式 (2),(4) 为 子 种 群 1 取 值 

12 a 根据 式 (5),(9) 分 别 为 子 种 群 2,3 取 值 
13 else wa 根据 式 (2),(4),(5) 为 子 种 群 1,2 取 值 
14 合并 取 值 :全 WJIWs 

15 end for 

16 4 发送 取 值 信息 { id4 ,V } 给 或 最 低 优 先 级 a 

17 if w 优先 级 最 低 且 收 到 所 有 取 值 信息 

18 更 新 bestcost 和 其 对 应 的 最 佳 值 分 配 y* ,更 新 count， 
按 式 (16) 计 算 每 只 蚂蚁 的 信息 素 增 量 A， 

19 发 送信 息 素 信 息 {V ,A , v* } 给 所 有 agent 


28 When agent a; 收 到 了 信息 素 信息 (id , recv_V ): 
21 ”根据 式 (11),(14) 分 别 更 新 和 蒸发 信息 素 ， 更 新 est(di) 
22 if 不 满足 终止 条 件 then 开始 下 一 轮 循环 
在 信息 素 更 新 和 燕 发 阶段 结束 过 后 , 还 要 对 agent a 与 其 
低 优先 级 邻居 Li 之 间 的 最 小 约束 代价 和 的 预 估 值 64) 进行 
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的 解 质量 也 随 之 提高 ， 


大 | 


此 根 
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更 新 。 由 于 在 分 布 式 场景 中 ，agent 仅 知道 其 邻居 的 信息 ， 并 3(a) 显 示 了 cx 变化 对 

是 根据 消息 传递 顺序 ，agent 仅 知 道 其 高 优先 级 邻居 的 取 值 。 中 可 以 看 到 ， 随 着 a 的 增 大 算法 求 得 

寻 此 该 预 估 值 可 帮助 s 估算 与 其 所 有 邻居 的 最 优 代 价 和 ， 有 ”但 在 a>1 后 ， 算 法 的 性 能 开始 下 降 ， 
助 于 启发 式 因子 对 当前 取 值 的 评估 。 esii(d) 的 更 新 如 算法 2 。 取 1 时 RDMAD 算法 的 性 能 最 好 。 图 3(b) 中 的 
所 示 RDMAD 算法 的 + 


算法 2 更 新 预 估 值 esi(4;) (for agent a) 


pb 


生 能 有 较 大 的 影响 , 从 图 中 可 以 看 出 


居 实 验 结果 ，a 


的 取 值 也 对 
8 越 大 ， 


算法 的 求解 质量 和 收敛 性 能 都 在 提升 , 但 当 p>3 后 解 的 质量 
输入 : 种 群 解 集 V。 开始 下 降 。 从 图 3(c) 的 实验 结果 可 以 得 出 ， 信 息 素 的 蒸发 率 
输出 : 更 新 后 的 预 估 值 est;(d;) 。 也 会 影响 算法 的 性 能 ， 但 它 的 影响 略 小 于 参数 a 和 8， 当 
1 for each d,eD, do p=0.0025 时 ，RDMAD 算法 得 到 的 解 质量 最 好 。 最 后 图 3(d) 
2 sum=0,num=0 为 触发 间隔 的 选择 实验 ， 实 验 结果 表明 在 触发 随机 扰动 策略 
3 for each 蚂蚁 k do 时 ， 设 置 合适 的 触发 间隔 能 有 效 提高 求解 质量 。 
4 if V = dthen 羽 此 根据 实验 结果 ， 适 当 设 置 重要 参数 的 值 有 利于 提高 

_ 算法 的 求解 质量 和 收敛 性 能 。 为 不 失 公 平 性 ， 对 比 算法 的 参 

5 sum+ = > i, costy (di,Vi)) , num = num+1 区 人 ee 

数 采用 原文 推荐 值 。RDMAD 算法 参数 设置 为 a=1, P= 3， 
6 endfor Pp =0.0025, r=3, count=80, K =20。 在 未 触发 随机 扰动 策略 时 ， 
7 if num!=0 then 子 种 群 1、2 的 规模 分 别 为 0.5 KX , 0.5 x ; 在 触发 随机 扰动 策略 
8 ave= sum/num, est,(d,)=(est,(d,)+ave)/2 后 ， 子 种 群 1、2 和 3 的 规模 分 别 为 0.5K,0.3K 和 0.2K。 
9 end for 5500 6000 


2.7 RDMAD 算法 复杂 性 分 析 


RDMAD 算法 复杂 性 分 析 主 要 包含 算法 的 消息 数 、 空 间 
将 改进 后 的 RDMAD 算法 与 
ACO_DOCP 算法 进行 比较 。 在 每 次 迭代 中 ， 除 最 低 优先 级 5300 


复杂 度 和 时 间 复 杂 


度 。 


agent 外 , 每 个 agent 都 会 向 
居 ) 发 送 取 值 信息 ， 最 低 优先 
由 于 取 值 信息 9 
的 大 小 为 O(nK), n 为 agent 个 数 ， 


息 大 小 与 ACO_DCOP 算法 一 致 。 包 含 了 蚂蚁 的 


息 素 信息 。 


素 增 量 和 最 优 解 的 
RDMAD 算法 中 信息 素 消 


[本 


每 个 agent a 存储 与 


型 
女 


值 di 会 裔 历 其 所 


ACO_DCOP 算法 一 致 。 


O(IHiIDHIDN) 大 小 的 空间 。 
大 小 与 ACO_DCOP 算法 一 致 。 
在 最 坏 情况 下 ， 当 a 为 蚂蚁 外 
高 优先 级 令 
消息 需 O(KI 本 Dj) 次 操作 。 


bp 居 的 取 值 ， 


大 | 


比 RDMAD 算法 时 间 复 杂 度 与 


5450 
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5500 上 
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此 RDMAD 算法 中 值 消 
解 集 、 信 息 


(a) 参数 a 实验 结果 


其 低 优先 级 邻居 (或 最 低 优先 级 邻 5250 sol 
级 agent 会 向 所 有 agent 发 送信 000 200 30 40 50 60 70 800 5000 i00 200 300 00 500 600 700 50 
包含 了 蚂蚁 的 解 集 ， 因 此 值 消息 汉代 办 这 代办 次 


(b) 参数 B 实验 结果 


5500 


迭代 轮 次 


(c) 参数 p 实验 结果 
区 | 


天 


此 a 计算 一 个 值 


埋 息 素 消息 的 大 小 为 O((K+1)nt+K)， 因 此 5450 p00 | | 5 
息 大 小 与 ACO_DCOP 算法 一 致 。 sa00 oo || 5 
和光 先 级 邻居 间 的 信息 素 路 径 需 。 Ss% Eo 
因此 RDMAD 算法 需要 的 空间 sm | NS 
时 间 复 杂 度 主要 是 取 值 计算 ， sos0 5 Se 
取 值 时 ， 对 于 值 域 D; 中 的 每 个 3000 0 30 140 50 60 70 80 5200 


0 100 200 300 400 500 600 700 800 


和 迭代 轮 次 
(d) 参数 count 实验 结果 


3 各 参数 实验 结果 


Fig.3 Parametric experimental results 


3.3 实验 结果 及 分 析 


为 验证 RDMAD 算法 的 鲁 棒 性 和 寻 优 性 能 , 在 测试 


3 ”实验 与 结果 分 析 
3.1 实验 设置 
实验 采用 三 类 基准 


问题 进行 算法 性 能 测试 ， 包 括 随机 


DCOPsP27(EXP-1、EXP-2)、 无 
4) 和 加 权 图 着 色 问 题 (EXP-5)。 具 体 相关 信息 如 表 1 所 示 。 


尺度 网 络 问题 P31(EXP-3、EXP- 


DSALI 


20] 


DCOPI”I、 DSAN 


LSGA DSAMS AEDP?N, i 


于 非 完 备 算 法 具有 随机 性 ， 


29] 


问题 


上 与 其 他 优秀 的 非 完备 DCOP 算法 进行 比较 ,包括 PDS- 
5]、GDBA[3]、ACO 


、DSADI、 
因此 


表 1 问题 配置 每 个 实例 取 独 立 运行 30 次 的 均值 为 结果 ， 每 个 测试 问题 随 
Tab. 1 Problem configuration 机 生成 20 个 实例 。 

测试 问题 ”agent 个 数 ”变量 值 域 ”约束 代价 范围 ”问题 密度 表 2 为 RDMAD 算法 与 ACO_DCOP 算法 ， 及 其 他 对 比 
EXP-1 70 10 [1,100] 0.1 算法 在 每 个 测试 问题 的 20 个 实例 上 的 约束 代价 的 均值 (Mean) 
EXP-2 70 10 [1,100] 0.6 和 标准 差 (Std Dev)。 同时 , 采用 Wilcoxon 符号 秩 和 检验 法 对 
EXP-3 70 10 [1,100] 10,3 实验 结果 进行 统计 分 析 ， 其 中 “+” 表 示 RDMAD 算法 在 20 
EXP-4 70 10 [1,100] 10,7 个 实例 上 得 到 的 结果 优 于 对 比 算法 的 个 数 ; 而 “-” 则 表示 相 
EXP-5 120 3 [1,100] 0.05 反 意思 。 从 表 2 的 Mean 值 可 以 看 出 ， 在 除 EXP-2 外 的 所 有 


3.2 参数 分 析 


为 验证 重要 参数 对 RDMAD 算法 的 影 
(EXP-1) 为 例 ， 对 RDMAD 算法 中 的 信息 素 


因子 a、 启 发 式 因 Mean 值 只 是 略 大 于 AED 算法 。 同 
子 8、 信 息 素 蒸发 率 p 以 及 触发 闵 值 count 进行 了 实验 分 析 。 “RDMAD 算法 每 次 得 到 的 结果 
DSAN 和 GDBA 算 法 , 且 在 其 


为 保证 实验 结果 的 公平 性 ， 本 实验 中 采用 控制 变量 法 对 每 个 


测试 问题 


向 , 以 随机 DCOPs 


参数 进行 调节 ， 同 时 每 个 参数 的 每 个 值 取 独 立 运 行 30 次 的 
平均 值 作为 该 取 值 下 的 实验 结果 。 


所 示 。 


稳定 性 较 高 。 另 外 ， 


上 ，RDMAD 算法 得 到 的 
他 所 有 对 比 算 法 。 且 在 EXP-2 测试 问题 上 ， 


通过 表 2 中 的 Wilcoxon 


问题 的 约束 代价 值 小 于 其 
RDMAD 算法 
时 ， 从 统计 结果 来 看 ， 
g 优 于 ACO_DCOP、DSA、 


AP 


符 


+ 参数 的 实验 结果 如 图 3 ”的 结果 p-value 也 再 


面 优势 明显 。 


次 验 订 


本 


也 测试 问题 上 也 上 共有 明显 优势 ， 


秩 和 检验 法 


E 了 RDMAD 算法 在 求解 质量 方 
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图 4 为 所 有 算法 在 不 同 测试 问题 上 的 收敛 曲线 。 在 五 个 ” 但 RDMAD 算法 仍 能 保持 较 好 的 寻 优 性 能 ,其 收敛 和 寻 优 质 
测试 问题 上 ，RDMAD 算法 均 具有 优秀 的 收敛 和 寻 优 性 能 。 量 都 优 于 ACO_DCOP， 相 比 ACO_DCOP 提高 了 约 1.4%。 
在 EXP-1 上 ，RDMAD 算法 相 比 原来 的 ACO_DCOP 提高 了 同时 RDMAD 算法 能 够 得 到 与 LSGA-DSA 和 AED 算法 同等 
约 4.2%， 相 比 其 他 算法 提高 了 约 1.3%~12.9%。 从 各 算法 的 ” 质量 的 解 ， 且 收敛 优势 明显 ， 相 比 其 他 算法 提高 了 约 1.1% ~ 
收敛 曲线 可 以 发 现 , 由 于 缺乏 全 局 信息 , DSA 和 DSAN 算法 2.7%。 同 样 的 ， 在 EXP-3 和 EXP-4 上 RDMAD 算法 优 于 
的 寻 优 能 力 较 差 。 采 用 LSGA 框架 的 DSA 算法 ， 虽 然 提 高 。 ACO_DCOP 约 4.4% 和 2.8%, 相 比 其 他 算法 分 别提 高 约 4.1% 
了 DSA 算法 的 局 部 搜索 性 能 ， 但 其 对 DSA 算法 的 性 能 提升 ” ~ 17.2% 和 0.6% ~ 8.3%。 可 以 看 出 ，RDMAD 算法 在 无 尺度 
有 限 ， 相 比 LSGA-DSA 算法 , RDMAD 算法 具有 更 好 的 收 鲍 网 络 问 题 上 (EXP-3, EXP-4) 的 表现 更 优秀 ， 收 敛 速 度 也 具有 
性 能 。 另外 ACO_DCOP 和 AED 算法 都 利用 了 种 群 对 问题 进 明显 优势 。 这 表明 RDMAD 算法 在 求解 结构 化 问题 时 性 能 显 
行 寻 优 ， 但 从 图 中 可 以 发 现 ，RDMAD 算法 在 收敛 和 寻 优 质 著 。 最 后 ， 在 EXP-5 测试 问题 上 ，RDMAD 算法 同样 表现 出 
量 上 比 这 两 种 算法 表现 更 好 。 在 EXP-2 上 ， 由 于 测试 问题 密 了 良好 的 收敛 和 寻 优 性 能 , 优 于 ACO_DCOP 约 18.4%, 同时 
度 过 高 , agent 间 的 约束 增多 , 因此 算法 的 性 能 受到 一 定 影响 ， 相 比 其 他 算法 提高 了 约 18.7% ~ 62.7% 。 
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表 2 每 个 问题 在 20 个 实例 上 的 统计 结果 
Tab.2 Results on 20 instances of each question 
Mean+Std Dev 


问题 RDMAD ACO DCOP AED DSA LSGA-DSA PDS-DSA GDBA DSAN 
EXP-1 S340+79.7 5575+82.0 5463+72.6 5991+98.4 5431+71.0 5411+82.2 5797+86.4 6127+81.7 
十 20 18 20 17 16 20 20 
- 0 2 0 3 4 0 0 
p-value 0.000 0.001 0.000 0.001 0.007 0.000 0.000 
EXP-2 55439+210.6 56212+205.8 SS400+22S.0 56524+188.3 55456+211.5 56057+199.7 56129+149.9 57002+187.6 
十 20 10 20 9 20 20 20 
- 0 10 0 11 0 0 0 
p-value 0.000 0.601 0.000 0.709 0.000 0.000 0.000 
EXP-3 3648+81.9 3816+69.3 3853+61.8 4360+76.9 3845+77.1 3804+80.4 4137+75.6 4408+61.9 
十 20 18 20 19 17 20 20 
- 0 2 0 1 3 0 0 
p-value 0.000 0.000 0.000 0.000 0.000 0.000 0.000 
EXP-4 12334+92.0 12684+126.5 12424+101.9 13160+139.2 12413+90.3 12589+106.3 12935+101.1 13449+73.2 
十 20 17 20 15 20 20 20 
- 0 3 0 5 0 0 0 
p-value 0.000 0.010 0.000 0.025 0.000 0.000 0.000 
EXP-5 279+29.3 3421+36.4 343+31.9 747+45.7 396+31.5 372+31.7 476+41.1 693+44.7 
十 20 17 20 20 19 20 20 
- 0 3 0 0 1 0 0 
p-value 0.000 0.000 0.000 0.000 0.000 0.000 0.000 
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图 4 各 算法 在 不 同 测试 问题 上 的 收敛 曲线 


Fig.4 Convergence curves of various algorithms on different test problem 
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有 效 利 用 群体 智能 求解 分 布 式 约束 优化 问题 ， 是 提高 
DCOP 求解 算法 性 能 的 新 思路 ， 本 文 提出 了 一 种 基于 多 种 群 
的 随机 扰动 蚁 群 算法 求解 分 布 式 约束 优化 问题 。 该 算法 首先 
充分 地 利用 种 群 特性 ， 通 过 多 种 群 分 工 配合 分 级 更 新 策略 更 
好 地 平衡 算法 的 探索 和 开发 能 力 ， 提 高 了 算法 的 收敛 速度 和 
求解 质量 。 在 此 基础 上 利用 随机 扰动 策略 增加 种 群 多 样 性 ， 
避免 算法 陷入 局 部 最 优 。 将 RDMAD 算法 与 ACO_DCOP 算 
法 ， 以 及 其 他 6 种 目前 最 先进 的 非 完备 算法 在 三 类 基准 问题 
上 进行 比较 ，RDMAD 算法 在 求解 质量 和 收敛 速度 方面 优势 
显著 ， 且 有 具有 良好 的 稳定 性 。 但 是 RDMAD 缺少 对 agent 局 
部 收敛 状态 的 利用 ， 在 以 后 的 工作 中 将 考虑 引入 信息 炉 等 状 
态 评价 指标 与 随机 扰动 机 制 结合 。 
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